Nature综述:2万字带你系统入门鸟枪法宏基因组实验和分析
NBT:鸟枪法宏基因组-从取样到数据分析
Shotgun metagenomics, from sampling to analysis
Nature Biotechnology [IF:31.864]
2017-09-12 Articles
DOI: https://doi.org/10.1038/nbt.3935
第一作者:Christopher Quince1,7,Alan W Walker1,7
通讯作者:Nicola Segata6
其它作者:Jared T Simpson, Nicholas J Loman
主要单位:
1 华威大学沃里克医学院,英国沃里克(Warwick Medical School, University of Warwick, Warwick, UK.)
6 意大利特兰托大学整合生物学中心(Centre for Integrative Biology, University of Trento, Trento, Italy.)
热心肠日报
Nature子刊:宏基因组研究超强综述——从取样到分析
https://www.mr-gut.cn/papers/read/1081754161
创作:刘永鑫 审核:刘永鑫
原标题:鸟枪法宏基因组-从样本制作到数据分析
随着测序价格下降、配套软件的发表和更新,宏基因组广泛应用;
本文概述了宏基因组学的工作流程,总结了实验设计的基本思路,以及常见问题和解决方法;
实验阶段从DNA提取、文库制备和测序各阶段进行详细描述和经验分享;
分析阶段介绍了拼接、分箱、有参定量、基因和代谢通路和下游分析的方法和原理,同时对主流软件的优缺点和适合范围进行讨论;
本文是入手宏基因组研究必读综述,内容深入浅出,适合本领域各层次同行学习。
主编评语:此文是Nicola Segata领衔创作的宏基因组分析综述,是目前我所见到的指导宏基因组实验和分析最好的综述。Segata本人及其团队在宏基因组分析领域编写了最多的主流软件,如LEfSe、MetaPhlAn2基于多标记基因的宏基因组物种组成定量 文章解读 软件使用、HUMAnN2基于UniRef数据库的功能定量 1文章解读 2软件教程 3有参分析流程和GraPhlAn:最美进化树或层级分类树等,而且还表发了众多顶级宏基因组研究文章,如Cell:15万人体微生物基因组!超大规模宏基因组研究揭示数千计人体微生物新物种、《Nature子刊:跨越人群的大肠癌肠道菌群特征和诊断标志物》等。此文发表近2年,引用200+次,是CNS平均引用的2.5倍多,足以见此文的重要性。
摘要
Abstract
细菌、古细菌、病毒和单细胞真核生物的不同微生物群落在环境和人类健康中起着至关重要的作用。然而,微生物经常难以在实验室中培养,这可能会混淆成员的命名和对群落如何运作的理解。高通量测序技术和计算流程已经应用到鸟枪法宏基因组学中,改变了微生物学。但仍然需要计算方法来克服影响基于组装和基于比对的宏基因组分析的挑战,特别是高复杂性样品或含有与测序基因组具有相似性生物的环境。了解这些群落的功能和表征特定菌株,为使用微生物工厂合成产品的治疗、发现和创新方法提供了生物技术前景,并可以确定微生物对我们的家园、动物和人类健康的贡献。
正文
Main
高通量测序方法可以对样品中的所有微生物进行基因组分析,而不仅仅是那些适合培养的微生物。鸟枪法宏基因组学(shotgun metagenomics)是对样本中存在的所有(’meta-‘)微生物基因组的非靶向(untargeted / ‘shotgun’)测序。鸟枪法测序可用于分析微生物群落的分类组成和功能潜力,并恢复全基因组序列。诸如高通量16S rRNA基因测序(其描绘所选生物或单个标记基因)的方法有时被称为宏基因组学,但这是用词不当,因为它们不针对样品的整个基因组含量。
自首次使用以来的15年中,宏基因组学已经能够对复杂的微生物组进行大规模研究。通过该技术的发现,包括鉴定具有内共生行为的环境细菌门、以及可以对氨进行完全硝化的物种。其他值得注意的发现包括共生细菌中广泛存在的抗生素抗性基因,追踪人类暴发病原体,微生物组的病毒和细菌部分与炎症性肠病的强烈关联,以及监测菌株的能力 - 在粪便微生物组移植引起的扰动后肠道微生物群的变化。
在这里,我们讨论鸟枪法宏基因组学研究的最佳实践,包括目前认识和应用的局限性,并提供未来宏基因组学的展望。
在初步研究设计之后,典型的鸟枪宏基因组学研究包括五个步骤:(i)样品的收集,处理和测序; (ii)测序读长的预处理; (iii)微生物组序列分析分类学、功能和基因组特征; (iv)统计和后处理分析,以及(v)验证(图1)。许多实验和计算方法可用于执行每个步骤,这意味着研究人员面临着艰巨的选择。而且,尽管其显而易见的简单,但由于潜在的实验偏差以及计算分析及其解释的复杂性,鸟枪法宏基因组学具有局限性。我们评估每个步骤伴随的选择和常见问题。
图1. 宏基因组分析流程概述
Figure 1: Summary of a metagenomics workflow.
步骤(1):研究设计和实验方案。在宏基因组学中经常低估这一步骤的重要性。步骤(2):数据预处理。数据质量控制(quality control,QC)步骤最小化基本序列偏差,例如去除测序接头、质量修剪、去除测序重复(使用例如FastQC,Trimmomatic或Picard工具)。还过滤外源或非靶DNA序列,并且如果比较分类群或功能的多样性,则对样品进行二次采样以标准化读长数量。步骤(3):序列分析。根据实验目标,采用“基于读长”和/或“基于组装”的方法。两种方法都有优点和局限性(表4)。步骤(4):后处理。可以使用各种多变量统计技术来解释数据。步骤(5):验证。高维生物学数据的结论易受研究驱动的偏差影响,因此后续验证至关重要。
附图1. 用于规划宏基因组学研究的示例工作流程
Example workflow for planning a metagenomics study
这里提出的建议针对的是该领域的入门级研究人员,特别是关注假设驱动的实验,与探索性/假设生成研究相比,这些实验当然可能设计得非常不同。
研究设计(蓝框),样品采集(绿框)和实验程序(黄框)的关键考虑因素突出显示。了解混杂因素的可能性和设计的优化,可以显著地提高宏基因组序列数据和解释的质量。附框1包含进一步的具体建议。
附框1. 实验设计中的问题和解决方案
Supplementary Box 1 Problems and solutions for study design
为研究提供的统计功效和测序深度的要求
Powering the study & Read depth requirements
能够检测显著差异所需的样品数量和测序深度将取决于诸如不同样品之间微生物组成的一致性、样品的固有微生物多样性和所研究现象的效应大小等因素。
解决方案:决策可以通过相同类型环境中先前研究的结果来指导。在缺乏此信息的情况下,进行基于标记基因的初步研究以评估谨慎的列出的每个因素的可能相对影响。
混淆变量和对照组
Confounding variables and control groups
通常很难选择对照组与不含其他混杂变量的目标样本进行比较。这方面的一个例子是啮齿动物微生物组研究,其中笼和动物批次效应可导致微生物组成的显著差异,与所研究的变量无关。另一个例子是与病例相关微生物组的横断面研究(cross-sectional study),在没有积极治疗的情况下患者无法取样。
解决方案:当前的最佳实践是尽可能多地收集关于每个研究组的元数据,并在比较组时将这些元素纳入后续分析中。对于临床样本,通常包括性别、年龄、抗生素/药物使用、地理位置、饮食习惯和布里斯托尔粪便图表分数等特征。对于环境样品,通常包括地理位置、季节、pH、温度等。有关规划啮齿动物微生物组研究的进一步广泛建议,来自同一患者/位置的纵向采样也可作为额外控制,特别是当纵向变化可以与元数据相关联。
样品采集/保存
Sample collection/preservation
可能很难以完全相同的方式处理和保存所有样品(例如,当不同研究组从多个位置提供样品时)。通过纵向研究,在最终时间点收集的样品在DNA提取之前,冷冻保存中花费的时间少于在其他时间点收集的样品。采样和保存程序的这些变化可能会引入系统偏差。
解决方案:在可能的情况下,对于给定研究中的所有样品,应始终对收集和保存方法进行标准化。在进行后续数据分析时,还应记录所有使用的程序并将其作为相关元数据包括在内。理想情况下,这应包括收集和DNA提取之间的时间,冷冻储存的时间长度和冻融循环次数等因素。对于哺乳动物的肠道样本,有一些证据表明,在长期冷冻储存后,甘油储存可能会产生更具代表性的成分结果改变。同样,在长期冷冻储存之前进行冷冻干燥可能是一种谨慎的方法。
生物量/污染
Biomass/Contamination
二代测序技术是高度敏感的,这意味着非常少量的DNA足以进行测序。然而,常见的实验室试剂盒和试剂并非无菌,意味着这些中存在的任何污染都可能超过仅含有极低微生物量的样品中的“真实”信号。
解决方案。在测序之前,使用定量方法如qPCR测量样品中存在的生物量水平是明智的。含有少于105个微生物细胞的样品似乎受到背景污染的影响最大。表1提供了一些可以尝试的方法,以便在测序之前从样品中富集细胞数 / DNA产量。使用与实际样品相同的试剂盒/试剂处理的阴性对照样品应进行测序,以确定存在的污染微生物的类型。然后可以从最终序列数据集中生物信息地去除源自这些污染物的序列数据。注意,通过使用载体DNA可以增强这些阴性对照的灵敏度。
DNA提取方法的选择
Choice of DNA extraction methodology
这一步骤可以极大地影响宏基因组学研究的结果。如果所选择的方法不够严格以从一些细胞类型中提取DNA,则它们将不会在随后的序列数据中准确地表示。从根本上说,DNA提取方法的最佳类型将取决于给定样品中存在的细胞类型的基本组成。不幸的是,即使在相同类型的样品中,这也可以变化很大(例如,一些人的粪便由革兰氏阴性物种主导,细胞壁相对容易破坏,而其他人的粪便由相对顽固的革兰氏阳性物种主导)。因此,没有一种DNA提取方法可以最佳地适用于所有样本类型。
解决方案:使用定义的模拟群落(Mock communities,人工混合成分确定的混菌),控制由来自特定环境中常见的物种类型的混合物的培养物组成,可以作为测试不同DNA提取方法效率和准确性的有效起点。通过包括系统发育上不同的物种集合可以优化模拟群落,这些物种已知在所研究的样本类型中通常很丰富。然而,使用简化模拟很难模拟真实微生物群落的复杂性,并且不可能测试未知/未培养生物的提取步骤的效率。大量证据表明,与化学裂解相比,将珠粒打浆步骤结合到DNA提取过程中可提高所得物种特征的产量和代表性。然而,这种类型的方法通常会导致更强烈的DNA打断,可能会限制新一代长读长测序技术的能力。在将序列数据上传到公共存储库时,DNA提取方法也应作为关键的元数据包含在内。这允许将方法选择的差异考虑到随后的荟萃分析中(荟萃分析包含来自不同实验室的宏基因组数据集)。
关于DNA提取方法选择,可阅读之前NBT发表的评测文章:
鸟枪法宏基因组学研究方案设计
Shotgun metagenomics study design
基于假设的研究设计所涉及的步骤在附图1中概述,附框1中总结了具体建议。微生物含量可能因同一环境的样本而异,这使得在少量样本中检测具有统计学意义和生物学意义的差异变得复杂。因此,重要的是要确定研究是否足以检测差异,特别是影响很小时。一种有用的策略可能是生成试点(pilot)数据以获得功率计算(power calculations)。或者,可采用双层(two-tiered)方法,其中对用较便宜的微生物调查(例如16S rRNA基因测序)预筛选的样品,然后选择子集进行鸟枪法宏基因组学(N.S.)18。
特别是对于复杂环境的样品,对照可能很难获得。这对于那些研究人类微生物组的人来说尤其重要,其中栖息的微生物群落受多种因素的影响,如宿主基因型、年龄、饮食和环境。在可行的情况下,我们建议纵向研究纳入来自同一栖息地的样本,而不是简单的横断面研究,比较两个样本集的“快照(snapshots)”。重要的是,纵向研究不依赖于可能是非代表性异常值的单个样本的结果。排除可能被不需要的变量混淆的样本也是谨慎的。例如,在人类受试者的研究中,排除标准可能包括暴露于已知影响微生物组的药物,例如抗生素。如果这不可行,则应将潜在的混杂因素纳入比较分析(附栏1)。
如果样本来自动物模型,特别是共同饲养的啮齿动物,则应考虑动物年龄、居住环境、甚至处理动物人员的性别对微生物群落特征的潜在影响。通常可以通过单独容纳动物以防止微生物在笼子内、配偶之间传播来缓解研究设计中的潜在混杂因素(尽管这可能引入行为改变,可能导致不同的偏差),从而在不同的实验群组中容纳动物。使用来自不同供应商或具有不同遗传背景的小鼠品系进行笼养或重复实验。
最后,无论所研究的样本类型如何,收集详细而准确的元数据至关重要。有关标记基因序列的最少信息(Minimum information about a marker gene sequence,MIMARKS)和任何基因序列的最少信息( minimum information about any (x) gene sequence,MIxS)必须列出,以提供所需元数据,但宏基因组学现在应用于不同类型的环境,难以选择适合每种样本类型的参数。我们建议将尽可能多的描述性和详细的元数据与每个样本相关联,以使研究群组或样本类型之间的比较更有可能与特定的环境变量相关联。
样本采集和DNA提取
Sample collection and DNA extraction
样品采集和保存方案可能会影响宏基因组学数据的质量和准确性。重要的是,在某些情况下,这些步骤的影响大小可能大于感兴趣的生物学变量的影响大小。实际上,样本处理方法的变化也可能是来自不同研究数据进行荟萃分析中的重要混淆因素(附框1)。已经针对一种样本类型验证的收集和存储方法不能被认为对于其他样本类型是最佳的。因此,通常需要仔细的初步工作来优化样品类型的处理条件(附图1)。
常温保存方法的比较,可参考《Microbiome: 室温存储样本方法比较》
主要目标是收集足够的微生物生物量进行测序,并尽量减少样品污染。富集方法可用于微生物稀缺的环境(表1)。然而,这些程序可能会将偏差引入测序数据。一些研究表明,样品采集和冷冻的时间长度以及样品经历的冻融循环次数等因素会影响检测到的微生物群落特征; 因此,应记录收集和储存协议和条件(附框1)。
DNA提取方法可以影响下游序列数据的组成。提取方法必须对多种微生物类群有效; 否则,测序结果可能由仅来自易于裂解的微生物DNA支配。包括机械裂解(或珠击)的DNA提取方法通常被认为优于化学裂解的方法。然而,基于珠击的方法在效率上提高,但强烈的提取技术如珠击可导致DNA片段长度缩短,这可能导致在使用片段大小选择技术的文库制备方法中DNA丢失。
样品处理阶段可能会发生污染。试剂盒或实验室试剂可能含有不同量的微生物污染物。来自低生物量样品(例如,皮肤拭子)的宏基因组数据集特别容易受到这个问题的影响,因为与低污染水平竞争的“真实”信号较少,我们建议使用低生物量样品的研究人员使用超净试剂并加入’空白’测序对照,其中对试剂进行测序而不添加样品模板。其他污染源包括先前测序运行中的交叉污染、基于Illumina的测序方案中添加的PhiX对照DNA、以及人或宿主DNA。
表1. 在测序之前富集微生物细胞和DNA方法的优点和局限性
Table 1: Advantages and limitations of methods to enrich for microbial cells and DNA before sequencing
全基因组扩增
Whole-genome amplification
优点
即使微量材料也可以产生足够的DNA用于测序
可以应用于提取环境DNA
可以在一类样品中扩增全部的物种
缺点
扩增会产生显著的偏差,对宏基因组表征产生影响
扩增中产生嵌合体影响组装
对感兴趣的物种无法改变其丰度比例(没有富集特定类群的能力)
单细胞基因组
Single-cell genomics
优点
可以从未培养的生物体中产生基因组
可以与荧光原位杂交等靶向方法结合使用,以选择特定的分类群,包括那些可能是微生物群落中罕见成员的分类群
将基因组数据置于其正确的系统发育背景中
参考基因组可以帮助宏基因组拼接
缺点
分离单个细胞是成本昂贵的,需要专业设备
需要全基因组扩增的步骤
在基因组扩增过程中容易引入偏差,因此通常只能回收部分基因组
容易受到污染
流式分选
Flow sorting
优点
提供对感兴趣的细胞进行高通量分选的方法
可以选择特定的分类群,包括那些可能是微生物群落中罕见成员的分类群
缺点
需要昂贵的设备和专业操作人员
需要完整的细胞
可能无法回收样品中附着于表面或固定在结构中的细胞,如生物膜
可以收集的细胞数量受流速和分选体积的限制
原位富集
In situ enrichment
优点
简化微生物群落结构,可以更容易地从宏基因组学数据中组装基因组
富集样品中特定分类群的存在,可以提供有关其在微生物群落中功能作用的线索
缺点
要求感兴趣的细胞可以在整个富集期内稳定地保持在微观世界中
简化微生物群落结构,偏差有利于能够在微观世界中茁壮成长的生物
培养和微培养
Culture or microculture
优点
允许对表型特征的分离株进行广泛测试
参考基因组可以帮助宏基因组拼接
提供功能数据以改进宏基因组学注释
将基因组数据置于其正确的系统发育背景中
缺点
通量低,可能是高度劳动密集型的工作(分几万个菌,点样就是一项体力活)
受到在实验室中一些难培养微生物的限制(永远不可能培养所有微生物)
不太可能恢复微生物群落的稀有成员,因为培养的分离物集合将由最丰富的生物体主导
序列捕获技术
Sequence capture technologies
优点
可以使用寡核苷酸探针来鉴定感兴趣的物种,如最近证明的不依赖于培养的病毒诊断(在病毒组研究中有广泛应用,如《NBT:宏基因组中设计全面可扩展探针捕获序列多样性》)
通过仅关注感兴趣的物种,特别是当存在大量宿主污染时,可以实现更高的灵敏度
缺点
使用的试剂盒价格昂贵
与PCR一样,当目标生物与用于设计探针的参考序列相比变异较大时无法捕获
可以对目标生物进行不均匀的基因组覆盖,影响组装
免疫磁珠分离技术
Immunomagnetic separation
优点
可以富集特定的分类群,包括那些可能是微生物群落中相对罕见的成员
远比单细胞基因组学或流式分选技术便宜得多
与其他有针对性的浓缩技术相比,在技术上更具挑战性,且更耗时
缺点
需要完整的细胞
需要针对目标靶细胞的特异性抗体
如果目标细胞数量低,可能需要在细胞分离后进行全基因组扩增
背景(人和真核)消减技术
Background (human or eukaryotic) depletion techniques
优点
对于微生物细胞数远低于真核细胞的样品特别有用
增强了对微生物基因组数据的检测
需要较低的序列深度以获得良好的微生物基因组覆盖率,降低测序成本
相对便宜,而不是技术上的挑战
缺点
在加工步骤中可能失去感兴趣的细菌DNA,并在随后的微生物组分析产生偏差
可能引入污染
文库制备和测序
Library preparation and sequencing
文库制备和测序方法的选择取决于材料和服务的可用性、成本、易于自动化和DNA样品定量。Illumina平台在鸟枪法宏基因组学中占据主导地位,因为它具有广泛的可用性,非常高的通量(每次运行高达1.5 Tb)和高精度(典型错误率为0.1-1%),尽管竞争的Ion Torrent S5或S5 XL仪器是另一种选择。诸如Oxford Nanopore MinION和Pacific Biosciences Sequel等长读长序列技术已经扩大了通量,现在每次运行可产生高达10 Gb,因此这些平台很快就会开始采用宏基因组学研究(详者注:两年后的今天,这些平台的准确度和通量均有明显的提升,而且已经有一大批采用三代测序的宏基因组文章率先发表于NBT杂志)。
三代测序应用于宏基因组的代表工作:
鉴于在单次运行中可实现非常高的输出,通常通过多达96或384个样品的标签混样一次对多个宏基因组样品进行测序,通常使用可用于所有文库制备方案的双索引条形码集。Illumina平台在测序批次间(运行之间)和测序批次内(运行中)之间存在交叉污染的问题。最近,人们越来越担心使用新扩增方法(ExAmp)的新型Illumina仪器会遇到更高比率的“索引跳跃(index hopping)”,其中不正确的条形码标识符被纳入增长的簇中,但这种问题在典型宏基因组学项目中的程度尚未经过评估,Illumina已经提出了减轻此问题的最佳实践。研究人员可以通过随机选择含有已知加内参孔作为阳性对照,和模板阴性对照来评估这些问题的程度。这些措施对于诊断宏基因组学项目尤其重要,其中少量病原体读长可能是高宿主污染背景下的感染信号。尽管在该领域仍然不常见,但技术重复对于评估可变性是有用的,并且即使对样本的子集进行重复也可以提供足够的信息以将技术与真正的变异区分开来。
有多种方法可用于制备Illumina测序文库,通常使用片段化的方法来区分。例如,Illumina Nextera和Nextera XT产品中使用的基于转座酶的“标记(tagmentation)”很受欢迎,因为它的成本低(每个样品25-40美元,稀释方法可以进一步降低这些成本)。标记方法需要小的DNA起始量(建议使用1 ng DNA,但可以使用更少的DNA)。由于随后的PCR扩增步骤,这种低输入是可接受的。然而,由于标记靶向特定序列基序,它可能引入扩增偏差以及众所周知的与PCR相关的GC含量偏差。减少这些偏差的一种方法是使用依赖于物理片段化的无PCR方法(例如,无PCR的TruSeq)来产生可以更能代表样品中潜在物种组成的测序文库。
这里没有针对给定环境或研究类型的“合适”覆盖量/测序量的通用标准,并且这种数字不太可能存在。根据经验,我们经常建议选择一个最大化测序输出的系统,以便从尽可能多的低丰度微生物组成员中检索序列。Illumina HiSeq 2500或4000,NextSeq和NovaSeq产生大量序列数据(每次运行120 Gb和1.5 Tb),非常适合宏基因组学研究(需要注意关于索引跳跃的问题)。这些仪器每次运行的通量是已知的,并且通过确定混样的数量,研究者可以设置每样品的期望测序深度。2017年的典型实验旨在产生1到10 Gb,但这些深度可能过高或不足,这取决于检测样品中稀有成员所需的灵敏度(详者注:我见过的测序数据量范围是6-300GB,这取决于你想要研究多低丰度的物种,通用最低量 6Gb = 150 bp X 2 X 2千万,可使1%丰度菌基因组测序深度 = 6GB*1%/5MB = 12X,0.1%只有1.2X,而通常纯菌要获得较完整的基因组也需要30-100X的深度)。
Illumina平台的主要区别在于其总产出数据量和最大的测序长度。Illumina HiSeq 2500虽然现在已有两代历史,但却是鸟枪法宏基因组学的热门选择,因为它能够在快速运行模式下生成2×250-nt读长(每个流通槽可产生高达180 Gb)或最多1个Tb处于高输出模式,具有2×125-nt读数。较新的HiSeq 3000和4000系统进一步提高了运行的总通量(4000的最高可达1.5 Tb),但读取长度限制为150-nt。NextSeq台式仪器具有与HiSeq 2500快速运行模式类似的输出,但仅限于读长150 nt。然而,NextSeq的成本不到HiSeq价格的一半,因此可能对希望操作自己的仪器的研究团队具有吸引力。最近发布的NovaSeq平台承诺在不久的将来每个流动槽通量可达3 Tb。Illumina MiSeq受输出限制(在2 × 300-nt 模式下高达15 Gb),但仍然是单标记基因微生物组研究的事实标准。MiSeq(或MiniSeq)可能仍然可用于对有限数量的样品进行测序或评估文库浓度和平衡条形码混池,在运行更高通量的仪器之前提供良好初步结果判断,其中单个运行(Run)花费可能 > 10,000美元。
宏基因组拼接
Metagenome assembly
已经公开了许多用于从序列读长库中重建微生物群落组成的方法。选择“最佳”是一项艰巨的任务,主要取决于研究的目的。
宏基因组从头/无参(de novo)组装/拼接在概念上类似于全基因组组装。de Bruijn图方法目前是一种非常流行的宏基因组装方法。对于单草图的基因组拼接,通过将每个测序读长分解为固定长度k的重叠子序列来构建de Bruijn图。这组重叠的“k-mers”定义了de Bruijn图的顶点和边。组装程序的任务是找到重建基因组的图形路径。生成非基因组序列的序列错误和重复序列会使此任务变得复杂,这可能导致错误组装和碎片化。
宏基因组拼接呈现出独特的挑战。首先,当组装单个基因组时,通常假设沿着基因组的序列覆盖近似均匀。组装程序可以使用序列覆盖来识别重复拷贝,区分真实序列和测序错误,并识别等位基因变异。宏基因的拼接更困难,因为每个基因组的覆盖范围取决于群落中每个基因组的丰度。如果总体测序深度不足以在图中形成连接,则低丰度基因组可能最终碎片化。在图形形成中使用短k-mer大小可以帮助恢复较低丰度的基因组,但这是以图中重复k-mer频率增加为代价,掩盖了基因组的正确重建。组装程序必须在恢复低丰度基因组和获得高丰度基因组的长而准确的重叠群之间取得平衡。第二个问题是样品可含有相同细菌种类的不同菌株。这些密切相关的基因组可以在组装图中引起分支,其中它们可以通过单核苷酸变体或整个基因或操纵子的存在或不存在而不同。组装程序通常会在这些分支点处停止,从而导致碎片重建。
特定的宏基因组的组装软件试图克服这些挑战。Meta-IDBA使用多重k-mer方法来避免选择适合低丰度物种和高丰度物种的k-mer长度的任务。Meta-IDBA具有对de Bruijn图分区的扩展(与MetaVelvet一样),最新版本IDBA-UD优化了不均匀序列深度分布的重建。SPAdes组装程序已扩展用于宏基因组装配,可用于组装使用不同技术测序的数据(二、三混合组装)。
对于可能包含数百种菌株的复杂样品,必须尽可能增加测序深度。计算时间和内存可能不足以完成这样的组装。分布式组装程序,例如Ray,它在一组计算机集群上分布内存负载,已被用于组装来自人类粪便样本的宏基因组。为了帮助组装非常复杂的样品,Pell等人开发了一种轻量级方法,将宏基因组装图分割成可以独立组装的连接组件。另一种方法是潜在的菌株分析,使用k-mer丰度模式对读长进行分区,这样可以使用有限量的内存组装各个低丰度基因组。MEGAHIT使用简洁的数据结构来降低组装复杂宏基因组的内存需求,并实现非常快的运行时间。
MEGAHIT的文章导读和软件使用教程如下:
关于不同装配软件的关键指标(如完整性,连续性和产生嵌合重叠群的倾向)方面的表现,几乎没有同行的共识。尽管宏基因组分析“烘焙比赛(bake-offs)”旨在为分析软件提出具体建议,但软件性能很可能取决于生物因素(例如,潜在的微生物群落结构)和技术因素(例如,测序平台特征和覆盖范围)。在Assemblathon项目中观察到没有一个组装软件表现出“最佳”。
我们分析了模拟合成和真实群落的组装结果(表2和表3)。我们评估了MEGAHIT和metaSPAdes从模拟群体中重建已知基因组并捕获真实数据集中的分类学和基因多样性的能力。两者都成功地重建了超过75%的模拟群落 - 一个包含20个生物,另一个包含49个细菌和10个古菌。MetaSPAdes产生更长的重叠群,但这些似乎不太准确。当限于与模拟群落中的参考序列完全匹配的重叠群时,MEGAHIT成功地重建了更多真正的基因组。因此,在这种情况下选择组装软件将取决于重叠群大小与准确度的相对重要性。在真实数据集(表3)中,难以辨别一致的模式。然而,检查中等单拷贝核心基因数(以估计组装中的基因组数量)表明,对于更复杂的土壤和海洋群落,MEGAHIT汇集了更多可以在功能上注释的基因。这里的关键结论是,不同的最先进程序对于不同的数据集将是最佳的,同时需要相似的运行时间(在最大样本上使用16个线程约48小时)和内存使用峰值(不超过125 GB)。因此,谨慎尝试不止一种组装方法。CAMI挑战报告称,MEGAHIT在其基准数据集中是位于前三名的宏基因组拼接软件,并且与metaSPAdes(未在CAMI中评估)一起,可能是当前最佳选择。无论使用哪种组装软件,结果都不是基因组,而是潜在的数百万个重叠群,这促使需要使用分箱工具将重叠群连接回它们所衍生的基因组。
表2. 基于已知成份的模拟群落评估宏基因组拼接
Table 2: Comparative evaluation of metagenomic assembly on mock microbial communities with known composition
使用SPAdes(版本3.7.1)和MegaHIT(1.0.4)使用默认建议参数进行宏基因组装,“-meta”“-k 21,33,55,77”用于SPAdes和“—presets meta-sensitive”用于“MegaHIT”。输入的宏基因组是先前描述的模拟群落的Illumina测序数据,其被子采样到5000万个读长以用于相同深度下多样性和其它结果的可比性。子采样的双端fastq文件位于 https://mgexamples.s3.climb.ac.uk/HMP_MOCK_SRR2726667_8.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/HMP_MOCK_SRR2726667_8.25M.2.fastq.gz 用于HMP模拟群落(包括20个菌株)和 https://mgexamples.s3.climb.ac.uk/MOCK_M63H.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/MOCK_M63H.25M.2.fastq.gz 用于环境模拟群落(包括59株)。通过与BLASTN比对模拟群落中生物的基因组的重叠群来计算重建百分比和百分比同一性。N50值对应于重叠群的大小,其中较长的重叠群代表总组装的至少一半,并且它是评估组件质量的关键参数之一。在括号中,我们报告称为“完全重叠群(perfect contigs)”的统计数据,其是通过宏基因组拼接重建的重叠群,其在重叠群的整个长度上与参考基因组具有 > 99%的同一性。值得注意的是,“完美的重叠群”不包括嵌合重叠群。
表3. 不同环境宏基因组拼接的比较
Table 3: Comparative evaluation of metagenomic assembly of a set of metagenomes from diverse environments
使用如表2中报告的SPAdes和MegaHIT产生组装。通过HMP(二次取样5千万读长的宏基因组)在对肠样品进行测序 https://mgexamples.s3.climb.ac.uk/HMP_GUT_SRS052697.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/HMP_GUT_SRS052697.25M.2.fastq.gz ),Ofek-Lalzar等人的土壤样本(5000万读长子样本宏基因组,网址为 https://mgexamples.s3.climb.ac.uk/SOIL_NATCOMM.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/SOIL_NATCOMM.25M.2.fastq.gz )和Sunagawa等人的海洋样本( https://mgexamples.s3.climb.ac.uk/TARA_OCEAN.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/TARA_OCEAN.25M.2.fastq.gz ,有5000万读取子采样的宏基因组) 。功能注释如前所述进行,使用Prodigal(使用默认参数和“-p meta”标志运行)从组装的重叠群中鉴定的基因总数,与NCBI非冗余(nr)数据匹配使用DIAMOND以95%同一性设定,36个通用COGs,COGs的单核基因使用rpsblast以e值<0.00001注释,KEGG orthologs使用DIAMOND的blastp和默认参数注释。
重叠群分箱
Binning contigs
宏基因组拼接高度分散,包含数千个重叠群(表2),研究人员不知道哪个重叠群来自哪个基因组,甚至不知道有多少基因组存在。重叠群“分箱”的目的是将重叠群分为物种。有监督的分箱方法使用已经测序的基因组数据库将重叠群标记为分类学类别。无监督(聚类)方法在数据中查找自然组。
监督和非监督方法都有两个主要元素:用于定义给定重叠群和分箱之间相似性的度量,以及将这些相似性转换为赋值的算法。对于物种分类学,针对已知基因组的重叠群同源性是一种潜在有用的方法,但大多数微生物物种尚未测序,因此大部分重建的基因组片段不能比对到参考基因组。这促使使用重叠群序列进行分箱。不同的微生物物种的基因组包含特定的碱基组合,这导致不同的k-mer频率。基于这些k-mer频率的度量可用于对重叠群进行分组,其中四聚体(4 k-mer)被认为是对宏基因组学数据进行分类的最有用信息。基于这些频率的许多软件选择可供选择,例如朴素贝叶斯分类器或支持向量机,但序列组成通常缺乏将复杂数据集解析到复杂群落中物种水平所必需的特异性。
重叠群的聚类分析非常有吸引力,因为它不需要参考基因组。直到最近,大多数重叠群聚类算法,例如MetaWatt和SCIMM,使用了各种物种组成指标,有时还与总覆盖率相结合。最近,随着多样本宏基因组数据集的产生,研究人员已经意识到跨多个样本的重叠群覆盖提供了更强大的信号,可以将重叠群聚集在一起。基本原则是来自相同基因组的重叠群在每个宏基因组内具有相似的覆盖值,尽管基因组内GC含量变异和细菌复制起点周围的读长深度增加可以挑战这一假设。例如,第一种算法,例如扩展的自身比对,需要人工输入来执行聚类,这是基于可以在二维中可视化的覆盖信息和组成。现在可以使用完全自动化的方法,例如CONCOCT,GroopM和MetaBAT,它们便于大数据集,但是当结合人工细化时可以获得更好的结果,例如使用可视化工具,例如Anvio。
当前已经有很多更新的分箱方法和提纯工具,如:
Microbiome:
重建宏基因组装基因组(metagenomic assembled genomes,MAG)的方法对于揭示细菌的多样性是必不可少的。从富含醋酸盐和过滤的地下水样品中回收来自候选门的近1,000个MAG,没有培养的代表,显示了这种方法的潜力。回收的基因组很小,新陈代谢最少,并且形成了与先前培养的细菌多样性分开的单系分支。这些已被提议作为新的细菌细分,通过宏基因组学揭示候选Radiation门。
通过检查在大多数微生物基因组中发现的单拷贝核心基因来评估MAG的完整性,例如tRNA合成酶或核糖体蛋白。纯MAG将使所有这些基因以单拷贝存在。构建后,MAG为比较基因组学提供了丰富的数据集,包括构建系统发育树,功能谱和样本中MAG丰度的比较(图2,补充代码和 https://github.com/chrisquince/metag-rev-sup )。
图2. 无参和有参宏基因组物种表征
Figure 2: Assembly-based and assembly-free metagenome profiling.
从宏基因组病例对照设计开始,我们说明了识别生物体和编码功能所需的一些步骤,并尝试将这些样本的特征与病例或对照条件联系起来。左边是一个基于组装的流程(这可以完全按照命令和代码作为GitHub库在 https://github.com/chrisquince/metag-rev-sup 提供)。右边是使用MetaPhlAn2、HUMAnN2和最近MetaPhlAn2方法的种水平扩展的基于读长的流程。(原始数据可在 http://metagexample.s3.climb.ac.uk/Reads.tar.gz 获得。)
有参宏基因组定量
Assembly-free metagenomic profiling
宏基因组的分类学分析确定了宏基因组中存在哪些微生物物种并估计它们的丰度。这可以通过外部序列数据资源(例如公众可获得的参考基因组)在没有组装的情况下进行。这种方法可以避免复杂的拼接问题,加快计算速度,并能够分析无法重新组装的低丰度生物(附框1)。其主要局限在于以前无特征的微生物难以描述(附框1)。然而,可用的参考基因组的数量正在迅速增加,每年产生数千个基因组,包括一些来自新培养方法靶向的难生长物种、单细胞测序方法或宏基因组拼接的不可培养物种。一些样本类型(例如人类肠道)可用的参考基因组的多样性现在足够广泛,可以使无组装的方法开展分类学的有效分析,包括缺乏足够序列覆盖和深度的相对低丰度的微生物,以便组装基因组。由于缺乏代表性的参考基因组,对包括土壤和海洋在内的更多样化环境的分析存在困难。因此,通常建议在分析来自这些环境的宏基因组时使用组装。
具有物种水平分辨率的无装配物种学组成,利用参考基因组和环境特定组装中提供的信息,并已用于迄今为止进行的最大的人类相关宏基因组学研究。读长到基因组的简单比对可能导致具有许多误报的错误匹配,但是当基于最低共同祖先(LCA)策略进行后处理或者与组合插值相结合的马尔可夫模型时,这种方法已被证明是有效的。但是,这些方法的运行时间并没有改善基于组装的方法的运行时间。Kraken也利用LCA,但通过用k-mer匹配代替序列比对来加速计算。
通过从可用的参考序列中选择代表性或判别性基因(标记)进行分类学分析是另一种快速且准确的非组装方法,其已经通过若干改进,具有可操作性。例如,通过观察来自预组装的环境特异性基因目录的共同丰富的标记,MetaHIT联盟能够表征人类肠道中的已知和新型生物。类似地,mOTU侧重于普遍保守但系统发育信息标记(例如,编码核糖体蛋白的基因),而MetaPhlAn(图2)采用具有高辨别力的数千个进化枝特异性标记,并且有效地定量分析用于人类微生物组计划(HMP)的来自多个身体区域的微生物组具有非常低的假阳性率。这些方法是可扩展的,可用于大型宏基因组学荟萃分析。基于标记的方法也可用于使用数千个宏基因组的菌株水平比较微生物基因组学。重要的是,随着更多参考基因组和高质量宏基因组组件的出现,这些方法的准确性将得到提高。对于具有数百个样本的大型数据集,其上执行或解释宏基因组学是不切实际的,基于标记的方法是目前推荐选择的方法,特别是对于具有大量微生物多样性的环境,可充分表征的测序物种覆盖。
宏基因组中的基因和代谢通路
Genes and metabolic pathways from metagenomes
利用片段化但高质量的宏基因组拼接结果,可以使用适合的单基因组表征工具鉴定微生物群落的基因库。这些基因鉴定步骤,通常具有宏基因组特异性参数设置,然后是通常用于表征纯分离基因组组装的基于同源性的注释流程(图2)。实际上,尽管这种方法通常受参考数据库目录中大部分未表征基因的限制,到目前为止一些最大的鸟枪法测序工作已经使用宏基因组拼接结果来汇编人类和小鼠肠道的宏基因组参考基因集。
其他大的宏基因组数据集通过针对功能特征性蛋白质家族的翻译序列搜索来解释。包括手动注释和计算预测的蛋白质家族组合的数据库,例如KEGG或UniProt,可以用于该任务并且能够表征微生物组的功能潜力(图2)。单个蛋白质家族聚类成更高级别的代谢途径和功能模块,提供图形报告或综合代谢存在、缺失和丰度表,如HUMAnN流程。无论采用无组装/有参还是基于组装/无参的方法,分析群落代谢潜力的主要限制因素是大多数微生物物种中缺乏对基因的注释(选定的模式生物除外; 框1) )。这意味着在宏基因组中更加一致地检测和量化高度保守的途径和看家(housekeeping)功能,这可以解释为什么即使分类组成变化很大,功能性状在不同的样品和环境中经常出乎意料地一致。微生物蛋白,编码基因和其他基因组特征(tRNA,非编码RNA和CRISPR)的实验证明和功能描述,以更全面地评估个别基因座的功能是一个瓶颈,目前对分析宏基因组功能能力的提高具有至关重要的影响。
对宏基因组的代谢功能分析的补充方法是对感兴趣的特定功能的深入描述。例如,在微生物群落中鉴定参与抗生素抗性的基因(’抗性组resistome’)可以告知抗生素抗性的传播。临时方法(Ad hoc)和人工策划的抗生素抗性基因数据库对这种方法至关重要; ARDB是第一个广泛采用的抗性数据库,现在由其他资源补充,例如Resfams。相当大的努力也致力于报告宏基因组的毒力库; 针对特定感兴趣的基因家族的宏基因组的靶向分析也可用于验证来自单个基于培养分离实验的发现。
框1. 宏基因组的局限性的机遇
Box 1: Limitations and opportunities in metagenomics
鸟枪法宏基因组研究存在一些局限性和挑战。局限性包括:
准入门槛高 Entry-level access
在无法获得测序和计算设施的情况下,对大量宏基因组进行测序和分析仍然很昂贵。改进的测序平台和云计算设施的发展将会降低这些入门级成本。
基因组目录的全面性 Comprehensiveness of genome catalogs
可用的 > 50,000个微生物基因组的集合偏向模式生物,病原体和易培养的细菌。所有宏基因组计算工具在某种程度上依赖于可用的基因组,因此它们受参考序列资源中偏差的影响。
功能组成分析中存在偏差 Biases in functional profiling
由于大多数基因缺乏有效的注释,因此宏基因组中存在的功能类别的分析受到阻碍,这个问题只能通过昂贵且低通量的基因特异性功能研究来缓解。此外,内在的微生物组特性,例如其平均基因组大小,可以严重影响定量分析。
微生物暗物质 Microbial dark matter
以前,基于培养的方法或宏基因组学可能尚未对微生物组的若干成员进行过表征。基于装配的方法可以恢复部分“微生物暗物质”。在组装后,一小部分读长仍可能未被使用,并且该部分的大小高度依赖于群落结构和复杂性(表2和3)。它还受到诸如测序噪音,污染物DNA和微生物以及质粒的影响,即使在其基因组的部分组装后仍保持在分类学上模糊不清。
“活着或死亡”的困境 ‘Live or dead’ dilemma
在宿主细胞死亡后,DNA在环境中持续存在,因此测序结果可能不代表活性微生物群体。如果目的是研究活性微生物,可以使用结合游离DNA的化合物如异丙脒(propidium monazide),去除死亡或受损细胞内的DNA,或使用宏转录组技术研究有活跃表达的RNA部分。
组成型数据的魔咒 ‘Curse of compositionality’
定量宏基因组特征报告结果为相对总体的比例,与实际绝对浓度无关。因此,样品中真实浓度的变化可能产生错误的相关性。例如,如果高度丰富的生物体在两个相同的样品中使其浓度加倍,则样品中的所有其他生物在标准化后似乎丰度都存在差异。
粘膜相关的微生物组测序 Mucosa-associated microbiome sequencing
人体粘膜组织是微生物与免疫系统之间的关键界面,但由于人类DNA的极高比例和微生物量低,因此用鸟枪法宏基因组学对粘膜微生物组进行测序是非常具有挑战性的。
鸟枪法宏基因组研究也提供了众多机遇,例如:
整合宏组学 Integrative meta-omics
尽管使用RNA、蛋白质和代谢组学高通量检测可以对DNA测序进行有效补充,但是使用鸟枪法宏转录组学、基于质谱的宏蛋白质组学和代谢组学,目前尚不清楚如何在共同框架内整合和分析宏组学数据。
整合宏组学的方法,可参考此文:《Nature Protocols:整合宏基因组、代谢组和表型分析的的计算框架》
病毒组鸟枪法测序 Virome shotgun sequencing
可以通过鸟枪法宏基因组学检测病毒,但通常需要病毒体富集技术来获取更广泛的病毒。由于病毒基因组的可用性有限以及缺乏家族间系统发育信号,病毒组分析在计算上也具有挑战性。关于病毒组靶方富集的方法参考:《NBT:宏基因组中设计全面可扩展探针捕获序列多样性》。关于病毒组的常规分析套路,参考:《EID:宏基因组测序在新发腹泻病毒鉴定中的应用》
株水平组成分析 Strain-level profiling
单一分离物测序的基因组分辨率仍然高于宏基因组背景下单个生物体的分辨率。将分析分辨率提高到单一菌株水平对于深入的群体基因组学和微生物流行病学至关重要。
纵向研究设计 Longitudinal study design
许多鸟枪法宏基因组研究是横断面的,因此没有用于评估相互作用与受试者内部变异性和微生物组时间变异。已经开发了用于纵向队列研究的工具,但是需要更多的方法和数据来研究时间维度。
解开因果 Disentangling cause from effect
来自宏基因组研究的假设应该跟进实验工作以验证相关性和关联。纵向和前瞻性设置可以潜在地提供对感兴趣病症的致病动态的直接见解。
验证微生物组生物标志物 Validation of microbiome biomarkers
给定条件的微生物组生物标志物通常具有强烈的研究依赖性。因此,重要的是验证技术和群组中的生物标记物,以提高重现性并最小化批次效应。
数据共享和分析的可重复性 Data sharing and analysis reproducibility
强烈鼓励数据和元数据共享; 通常在发布和开源软件之前要求进行原始数据存储。然而,宏基因组学尚未达到其他更成熟的高通量技术的标准化特征水平。
下游分析
Post-processing analysis
无论用于初级宏基因组序列分析的方法如何,输出将包括样品与微生物特征(即物种、分类群、基因和通路)的数据矩阵。后处理分析使用统计工具来解释这些矩阵,并解释结果与样本元数据的关联程度。许多这些统计方法并不特定于宏基因组学。宏基因组衍生的定量值具体挑战,包括物种和功能组成的比例性质以及丰度的对数正态长尾分布。这些问题在高通量16S rRNA基因扩增子测序数据集中也存在问题,并且几种流行的R包,如最初为扩增子测序开发的DESeq2,vegan和metagenomeSeq,也可用于宏基因组学。
后处理工具包括传统的多变量统计和机器学习。无监督方法包括样本的简单聚类和相关,以及可视化技术,例如热图,排序(例如,主成分分析和主坐标分析)或网络,其允许以图形方式显示数据中的模式。一些无监督的统计工具旨在专门解决由宏基因组概况(组成型问题)(框1)的比例性质引入的问题,并推断群落内的生态关系。监督方法包括统计方法,例如用于组间差异直接假设检验的多变量方差分析(ANOVA),或训练模型标记样本组的机器学习分类器,例如随机森林或支持向量机。一个典型的机器学习例子是基于群落生态失调来诊断疾病(例如,型糖尿病),尽管开发交叉研究预测特征的研究具有挑战性。
无监督和有监督的方法将整个群落视为一个整体。补充策略是询问哪些特定分类群或功能基因在样本类型或患者组之间在统计学上是不同的。鉴于宏基因组学数据集的复杂性,和通常可以进行的大量比较、多重比较或效应大小估计的校正是至关重要的。
稳健的统计检验是确定结果有效性的关键,但简洁的图形表示可以直观地揭示模式。在许多情况下,后处理结果的可视化需要特殊的图形工具和精心选择通用的可视化方法。
展望
Outlook
宏基因组学仍然面临着适用性、实用性和标准化的障碍(框1)。对于缺少大部分微生物生命之树和许多微生物基因的功能注释、参考基因组序列数据,大大降低了用于分析大量序列计算方法的潜力。来自土壤或水等环境的宏基因组特别受到这一问题的影响,因为它们具有较高的微生物多样性和这些群落中未知分类群的比例。鸟枪法测序也无法区分活体和死体来源生物。然而,前景是光明的,因为大量的湿实验室和计算研究人员正在逐步找到解决这些问题的方法。
宏基因组生物信息学工具正在不断改进,特别是用于将原始读长序列解析成有意义的微生物特征(基因组、物种丰度和功能潜能特征)(图1)。例如,现在可以进行种水平分析,但关于哪种序列分析方法最好(表4)仍存在争议。如果有足够的基因组覆盖率(即超过20倍),则宏基因组组装是优先选择的理论解决方案,但是对于大多数微生物组成员来说这种覆盖水平很难获得(表4),并且不组装的方法具有其他优点,包括进行大规模种水平分析的潜力。这两种方法的成功取决于微生物群落的组成和复杂性、测序深度、数据集的大小和可用的计算资源(表4)。我们建议研究人员尽可能使用这两种方法进行序列分析,因为它们相互补充和验证。
至于群落DNA测序的技术改进,长读长序列平台已经成熟,并且可能对宏基因组拼接策略更有用,尽管目前很少有出版物(译者注:近期有大量相关研究,详见公众号目录或下面几篇三代测序在宏基因组中应用的文章供参考)。
如果实现足够的覆盖率(通常为30-100×),Pacific Biosciences仪器可以提供完整或接近完整的微生物基因组,具有低碱错误率。牛津纳米孔MinION是一种单分子、长读长设备,由于其尺寸和便携性(与智能手机相当)而具有吸引力,并且对该平台的读长的早期分析表明其错误率接近于Pacific Biosciences。将分离的基因组拼接成单个重叠群是可能的,因此MinION的便携性提高了野外宏基因组测序的诱人可能性。
从宏基因组改进基因组重建的另一种实验方法,是将Illumina测序与多标签文库制备方案相结合。这种“合成长读取”技术依赖于将基因组DNA稀释成由数百至数千个单个分子组成的片段化和条形码池,详见《NBT:宏基因组”读云”10X建库+雅典娜算法组装获得微生物高质量基因组》。对这些库进行测序并从头组装以产生合成的长读长。合成长读取的一个好处是因为它们是由Illumina序列的共识构建的,所以基本错误率极低。然而,该方案相当费力并且需要高DNA输入(1至10μg之间),并且局部重复序列存在问题。报告表明,这种方法对于宏基因组学是有用的,特别是当与标准鸟枪测序结合时,因为它可以从密切相关的菌株以及来自稀有微生物的菌株重建基因组。
鸟枪法宏基因组学的另一个突出优势是从遗传相近生物的混合物中精确重建株水平(strain-level)变异,基于组装、比对或两者结合的解决方案。比对到一个物种独特的基因可以解决样本中的显性单倍型,并且该方法已经应用于数千个不相关的宏基因组,提供了菌株水平的系统发育,使分析数百个基本上无明显差异特征物种的微生物群体基因组学成为可能。单个样品中来自相同物种菌株的混合物不能通过共有方法解析,但如果多个样品中存在相同的菌株,则单核苷酸变异中将存在特征。这些核苷酸变异可以与推断单倍型及其频率相关联。该方法最初仅在比对到参考基因之后应用,并且任选地与同时的菌株系统发育重建一起应用,但是现在它已经在完全无参考的方法中直接应用于具有菌株基因的拼接重叠群中。这种方法的一个限制是在某些环境中,如人类肠道,一种菌株通常比来自同一物种的其他菌株占主导地位。因此,检测低丰度物种的非优势菌株是具有挑战性的,并且用户必须权衡仅显性菌株的稳健性,与可从菌株混合物获得的潜在额外信息。株水平宏基因组学是一个非常活跃的研究领域,它有可能赋予宏基因组学以类似于培养的单一分离物测序的分辨率。尽管长读长技术可以在未来帮助这些工作,但在此之前,解决宏基因组学株水平分析的计算挑战可以说是该领域面临的最大挑战。
表4. 宏基因组无参(组装)和有参(读长比对)分析方法的优点和不足
Table 4: Strengths and weaknesses of assembly-based and read-based analyses for primary analysis of metagenomics data
方面 | 基于组装的分析 | 读长层面的分析(比对) |
---|---|---|
全面性 | 可以构建多个全基因组,但仅适用于具有足够覆盖的生物体以进行组装和分箱 | 可以提供群落功能或结构的汇总图,但仅基于有效比对到参考数据库的部分读长 |
群复杂性性 | 在复杂的群中,只有一小部分基因组可以通过组装来解决 | 在给定足够的测序深度和令人满意的参考数据库覆盖范围的情况 |
新颖性 | 可以解析没有序列亲源的全新生物基因组 | 无法解析无近亲生物的基因组 |
计算成本 | 需要计算成本极高的组装、比对和分箱 | 可以高效执行,实现大型荟萃分析 |
基因组解析代谢 | 可以通过完全组装的基因组将代谢与系统发育联系起来,甚至是新的多样性 | 通常可以仅解决群落的聚合代谢,并且只有在已知参考基因组的背景下才能与系统发育相关联 |
专业的人工监督 | 精确分箱和支架以及错误装配检测所需要手工进行 | 通常不需要手动,但选择使用的参考基因组可能涉及人工监督 |
与微生物基因组学整合 | 可以将组装到微生物基因组流程中,该流程设计用于分析来自纯培养分离物的基因组 | 获得的概况不能直接放入源自纯培养分离物基因组的背景中 |
结论
Conclusions
自2004年由Jillian Banfield和J. Craig Venter领导的团队开始将全DNA测序应用于环境样品以来,鸟宏基因组学已成为研究微生物群落的重要工具。由于测序成本的下降和计算方法的发展,使得宏基因组学的广泛应用成为可能。研究人员现在面临的主要限制是培训计算科学家分析复杂的宏基因组数据集以及为设计适当的研究并有足够样本的成本。诸如对宏基因组解释的关键评估(CAMI)等倡议对于计算工具的无偏差评估以提高可重复性和标准化至关重要。
鸟枪法宏基因组学将在各种生物医学和环境应用中发挥越来越重要的作用。我们希望这篇综述能够让我们了解鸟枪宏基因组学的基本概念,包括它的局限性和巨大的潜力。
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”